<?php
error_reporting(E_ALL ^ E_NOTICE);
ini_set('memory_limit', '1000M');
set_time_limit(0);

/**
 *
 * hadoop处理第三步：房源合并
 * input：gov表数据，格式：json(所有数据数组形式json)
 * output：小区id，其他json格式数据
 * 	mapper_step1.php
 * 		input:gov表数据，格式type\tjson(所有数据数组的格式)
 * 		handle:相同经纪公司基准数据，经纪公司、小区、室、面积、价格、
 * 		output:按照source、小区id进行排序的数据，数据格式borough_id\tjson(所有数据数组的格式)
 *
 * @by: lily
 * @updated: 2016-01-16
 */

while (($line_json = fgets(STDIN)) !== false) {
    
    $line_json = trim($line_json);
    if (empty($line_json))
        continue;
    /**
     * id,house_title,house_price,cityarea_id,cityarea2_id,house_floor, 6
     * house_topfloor,house_toward,house_room,house_hall,house_toilet, 5
     * house_kitchen,owner_name,owner_phone,source,source_url, 5
     * house_totalarea,borough_id,borough_name 3
     */
	#list($type,$line_json)=explode("\t",$line_json);
	#if (intval($type) != 1) continue;  //非正常数据跳过
    $line = json_decode($line_json, true);
    if (is_array($line) && ! empty($line['source_url'])) {
	if ($line['borough_name'] == "',lat:"){
	    $line['borough_name'] = '';
	    $line_json = json_encode($line);
	}
        echo $line['borough_id'] . "\t" . $line_json . "\n";
	#fwrite(STDERR, "reporter:counter:group_counter,counter_no,1\n");
    }
}
 
 
 /*
  * 1	福城上上城五期	1136
    1	福城上上城三季	692
    1	天洋城	592
    10		494
    1	星河皓月	457
    1	东贸国际	445
    2	远洋山水
    1	纳丹堡	427
    2	三环新城
    3	永定河孔雀城	405
    3	孔雀大卫城	385
*/

/**
 *福城上上城五期	1154
 *阳光上东	754
 *天洋城	742
 *福城上上城三季	697
 *新城国际	608
 *荣丰2008	547
 *星河皓月	536
 *永定河孔雀城	527
 *纳丹堡	523
 *星河湾	497
 */
